{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "文本预处理，将所有训练数据合并成一个文件，去掉标点，停词"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import re,os\n",
    "import numpy as np\n",
    "import pandas as pd\n",
    "np.random.seed(42)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "INPUT_PATH = '../input/'\n",
    "CACHE_PATH = '../cache/'\n",
    "OUTPUT_PATH ='../output'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 读取数据\n",
    "df_train_first = pd.read_csv(INPUT_PATH + 'train_first.csv')\n",
    "df_train_second = pd.read_csv(INPUT_PATH + 'train_second.csv')\n",
    "df_predict_first = pd.read_csv(INPUT_PATH + 'predict_first.csv')\n",
    "df_predict_second = pd.read_csv(INPUT_PATH + 'predict_second.csv')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 合并数据\n",
    "df_train = pd.concat([df_train_first,df_train_second,df_predict_first],axis=0,ignore_index=True)\n",
    "df_predict = df_predict_second.copy()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import os\n",
    "LTP_DATA_DIR = '../ltp_data_v3.4.0/'  # ltp模型目录的路径\n",
    "cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "from pyltp import Segmentor\n",
    "segmentor = Segmentor()  # 初始化实例\n",
    "segmentor.load_with_lexicon(cws_model_path, './china_position')  # 加载模型，第二个参数是您的外部词典文件路径\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "def hgda_nlp(text):\n",
    "\n",
    "    words = segmentor.segment(text)\n",
    "    # segmentor.release()\n",
    "    return words\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 预处理单个词\n",
    "def preprocess_word(word):\n",
    "    # 去掉标点\n",
    "    word = word.strip('\\'\"?!,.():;？！，。…“”（）：；<>《》/ 、rn【】[]|~#%&*br')\n",
    "    # 去掉 - &\n",
    "    word = re.sub(r'(-|\\')', '', word)\n",
    "    \n",
    "    return word"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 预处理句子\n",
    "def preprocess_sentence(sentence, stop_words=False):\n",
    "    sentence = sentence.lower()\n",
    "    # 转化URL\n",
    "    sentence = re.sub(r'((www\\.[\\S]+)|(https?://[\\S]+))', ' URL ', sentence)\n",
    "    # 去掉空白，单双引号\n",
    "    sentence = sentence.strip(' \"\\'')\n",
    "    # 分词\n",
    "    words = hgda_nlp(sentence)\n",
    "    # 分别处理每一个单词\n",
    "    sentence = []\n",
    "    for word in words:\n",
    "        word = preprocess_word(word)\n",
    "        if len(word) > 0:\n",
    "            sentence.append(word)\n",
    "    if len(sentence) == 0:\n",
    "        return ' '.join(list('很好'))\n",
    "    else:\n",
    "        return ' '.join(sentence)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 拷贝数据\n",
    "df_train_processed = df_train.copy()\n",
    "df_predict_processed = df_predict.copy()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 预处理文本\n",
    "df_train_processed['Discuss'] = df_train['Discuss'].map(preprocess_sentence)\n",
    "df_predict_processed['Discuss'] = df_predict['Discuss'].map(preprocess_sentence)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Discuss</th>\n",
       "      <th>Id</th>\n",
       "      <th>Score</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>好 大 的 一个 游乐 公园 已经 去 了 2 次 但 感觉 还 没有 玩 够 似的 会 有...</td>\n",
       "      <td>201e8bf2-77a2-3a98-9fcf-4ce03914e712</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>新 中国 成立 也 是 在 这 举行 对 我们 中国 人 来说 有些 重要 及 深刻 的 意义</td>\n",
       "      <td>f4d51947-eac4-3005-9d3c-2f32d6068a2d</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>庐山 瀑布 非常 有名 也 有 非常 多 个 瀑布 只是 最 好看 的 非三叠泉莫属 推荐 一 去</td>\n",
       "      <td>74aa7ae4-03a4-394c-bee0-5702d3a3082a</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>个人 觉得 颐和园 是 北京 最 值 的 一起 的 地方 不过 相比 下 门票 也 是 最 ...</td>\n",
       "      <td>099661c2-4360-3c49-a2fe-8c783764f7db</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>迪斯尼 一 日 游</td>\n",
       "      <td>97ca672d-e558-3542-ba7b-ee719bba1bab</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>方便</td>\n",
       "      <td>3b7f3f2e-886f-3a68-a810-2c37cfd728d3</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>看 水 看 山 都 可以 感受 古人 的 智慧 结晶 秋景 美丽 如 画 红 黄 绿 相间 ...</td>\n",
       "      <td>88914409-bd13-3d47-b5a2-691177dde8fd</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>赞</td>\n",
       "      <td>bf13ec92-6079-3451-ade3-88020cb0dcb5</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>唯一 糟点</td>\n",
       "      <td>489c3d94-9c44-3cf2-949c-1b507c374c69</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>周 未 周边 游</td>\n",
       "      <td>285bba78-16a3-3c1d-b648-baa483883ee3</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>景点 服务 不错 就是 排队 太 长 了 好玩 的 项目 都 是 人 晚上 的 烟火 一定 ...</td>\n",
       "      <td>e7801d96-73d0-35c4-9e00-cc15caaa384a</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>绍兴 护城河 夜游</td>\n",
       "      <td>973afeca-7530-3f56-b7f5-bef36d889025</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>感觉 还 不错 作为 一 日 游 不错 的 选择 ～</td>\n",
       "      <td>cd91dc2f-2331-3c73-bc8d-da027337270d</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>有趣 hai   xing</td>\n",
       "      <td>7ce97eca-63a8-30a1-9687-6796f34606f1</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>荡气回肠 10 年 去 的 居然 没有 留下来 照片 必然 要 再 去</td>\n",
       "      <td>25e21097-bd41-3589-b12c-62bc7b04eb6d</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>景色 超级 棒 有 美丽 的 故事 可以 乘船 游览 也 可以 沿湖 浏览 累 了 可以 乘...</td>\n",
       "      <td>98e78de7-d5d3-3b30-90d4-a63a6107d532</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>南锣鼓巷 是 北京 市中心 一 条 老 胡同 因为 其 地理 位置 靠近 什刹海 成为 北京...</td>\n",
       "      <td>26334fc8-a4f1-3dc3-adb6-76b99d75cdf9</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>个人 感觉 就 是 个 卖 小商品 的 地方 还 不 便宜 但是 晚上 夜景 挺 好看</td>\n",
       "      <td>7f4d6d59-f732-3125-8e7d-8bd64c891b94</td>\n",
       "      <td>3.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>性价比 超高</td>\n",
       "      <td>61522e3c-5d2a-3088-b60d-159dbc2976ce</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>挺 普通 的 吧 就 在 楼下 拍 了 几 张 图片 反正 也 是 进 不 去 的 呵</td>\n",
       "      <td>37e57244-8d7e-3a1d-8f0f-8b811afb4a6a</td>\n",
       "      <td>3.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>太 大 了 在 里面 走 了 好 长 时间 也 就 看 了 不 到 五分之一 但 周围 交通...</td>\n",
       "      <td>81502f08-b884-38b8-8169-7de7a0680a82</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>迪士尼</td>\n",
       "      <td>533a667c-d6ba-313d-bc29-588b992789e0</td>\n",
       "      <td>2.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>亲子 游</td>\n",
       "      <td>041e4056-62f2-3f25-8e3e-8f57f66cb3d8</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>来 苏州 总是 要 欣赏 一下 古典 园林 的 可惜 对 园林 不 太 感冒 逛逛 玩玩 还...</td>\n",
       "      <td>988f2319-3292-305a-aaaf-ba18bc397e5a</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>不 到 长城 非 好汉 对于 爬 过 华山 的 我 来说 长城 太 简单 了 值得 一 去</td>\n",
       "      <td>c3d7dd21-79ef-3ff2-b90d-14631e9a30b4</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>很 值得 去 的 地方</td>\n",
       "      <td>4b12c7b9-059f-3016-a954-3849b0456ce4</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>第一 次 必 到 景点</td>\n",
       "      <td>5ba1fa45-4c97-3afe-9dd6-3efea9c73a94</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>好歹 也 是 长城</td>\n",
       "      <td>f6d82a8c-ef72-3a0a-95ca-95aa2fbb7f7d</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>早上 一大早 就 起床 去 看 升 国旗 很 庄严 很 整齐 就 是 像 一个 节目 让 人...</td>\n",
       "      <td>9363fc36-92a7-371f-8d5f-5dd71b565455</td>\n",
       "      <td>5.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>登 顶 是 俯瞰 故宫 的 绝佳 之 处 崇祯帝 在 此 自缢</td>\n",
       "      <td>a4dc34f1-6a97-3b86-829c-466cdaa86bf2</td>\n",
       "      <td>4.0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249970</th>\n",
       "      <td>景色 很 美 原谅 我 的 语言 苍白 池水 很 清 可能 是 折射 也 可能 是 有 藻类...</td>\n",
       "      <td>f0de95d2-ef2b-3361-a6df-3f4392d74e93</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249971</th>\n",
       "      <td>人 好 多 人 好 多 人 好多 呀</td>\n",
       "      <td>d0a33ded-fed9-3d92-9c51-c6512d71a93d</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249972</th>\n",
       "      <td>1 西塘 管 老太 臭豆腐 这个 是 西塘 最 著名 的 小吃 了 山寨 冒牌 遍布 西塘 ...</td>\n",
       "      <td>b00cd736-093a-3d1e-b750-41283e37e09b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249973</th>\n",
       "      <td>798 艺术 中心 来 朝圣 了 到处 都 是 拍照 的 人 到处 都 是 奇装异服 到处 ...</td>\n",
       "      <td>8be4f87a-c76b-3e65-8ecc-a25f209824da</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249974</th>\n",
       "      <td>心诚则灵 很多 拜佛 的 地方 都 是 有 信仰 的 人才 去 的</td>\n",
       "      <td>9079f642-7458-3c6d-9098-c4877cc81347</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249975</th>\n",
       "      <td>十一月 初 来 的 风 很 大 但是 不 太 冷 坐滑 车 来回 也 不错 长城 非常 壮观...</td>\n",
       "      <td>f0d47b46-9391-3d0c-b068-8753e4edd583</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249976</th>\n",
       "      <td>总体 就是 一般 般 吧 不 会 特别 推荐</td>\n",
       "      <td>8e9afa16-33ae-3f51-8156-1e9e5337605c</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249977</th>\n",
       "      <td>大大 的 雪场 绚丽多彩 的 冰灯</td>\n",
       "      <td>3a19d80a-1cdf-3616-9707-6f8a72b4513b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249978</th>\n",
       "      <td>这 是 个 代表性 的 建筑 代表性 的 地点</td>\n",
       "      <td>73081902-03a0-3f36-b562-900d6fd81f6c</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249979</th>\n",
       "      <td>坐 地铁 直奔 王府井 因为 急 找 住 的 地方 把 背包 放下 就 没 溜达 王府井</td>\n",
       "      <td>7fed708a-e036-36cb-98a4-f8de9fbbf3db</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249980</th>\n",
       "      <td>西双版纳 热带 植物园 挺 大 的 这里 很多 热带 植物</td>\n",
       "      <td>cdb9eed1-54fb-3454-b98d-645c3bdfca78</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249981</th>\n",
       "      <td>从 上海 到 西塘 坐 车 很 方便 票价 也 不 贵 冬天 的 西塘 虽然 冷 但是 放 ...</td>\n",
       "      <td>0986165f-e9a5-394c-91d2-57149a4cad4b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249982</th>\n",
       "      <td>观音 菩萨 的 道场 从来 都 没有 遭遇 过 台风 的 平静 之 地 岛 还是 比较 大 ...</td>\n",
       "      <td>99aeecae-9a3b-337c-ad7b-ab82bbb499b4</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249983</th>\n",
       "      <td>西湖 美 在 有 秀丽 的 自然 风光 动人 的 传说 湖光山色 塔影 相映成趣 连如织 的...</td>\n",
       "      <td>c0334558-d138-31cb-b714-0b6a320fa903</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249984</th>\n",
       "      <td>一点 都 不 好玩</td>\n",
       "      <td>03f30d5a-9478-3701-b8e0-dec924ffe9a5</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249985</th>\n",
       "      <td>值得 一 看</td>\n",
       "      <td>a8c15edb-40a9-3014-a021-83d0d747f2d9</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249986</th>\n",
       "      <td>点评 有 奖 第14 季 青城 山 风景 很 美 寺庙 建设 很 特别 但 景区 好多 没 开放</td>\n",
       "      <td>856aefdd-dc4c-36b2-a102-d9333b44186c</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249987</th>\n",
       "      <td>人山人海 太 多 人 了 特别 是 跟 团 的</td>\n",
       "      <td>179cf47c-4eb3-3c94-b097-52ab1844d67b</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249988</th>\n",
       "      <td>预订 票 在 机器 上 取 快捷 方便</td>\n",
       "      <td>c5e81b73-0412-3120-a94e-c14f3dc942ab</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249989</th>\n",
       "      <td>烟花 三月 下扬州 到 了 瘦西湖 才 算是 到 了 扬州 算是 必 选项</td>\n",
       "      <td>803661ce-e446-32c6-a3f2-707e7d53891d</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249990</th>\n",
       "      <td>秋日 的 下午 来到 这里 游人 虽然 不少 但是 也 不 算 特别 多 慢慢 走 慢慢 逛...</td>\n",
       "      <td>0c972f48-a836-3bdc-8dd5-fc4ac7d3385e</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249991</th>\n",
       "      <td>新 晋 5a 级 国家 旅游 风景区 渤海 广场 乘8 路 公交车 终点 即 是 票价 2 ...</td>\n",
       "      <td>927ed129-56ea-33fa-bcd3-f49527693fbb</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249992</th>\n",
       "      <td>很 不错 自己 爬 上去 的 走走 停停 认识 了 新 的 小伙伴</td>\n",
       "      <td>cda5d912-3bf9-382a-9b3a-5c08bc665360</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249993</th>\n",
       "      <td>有 何 功德 烧香 的 人 是 人山人海</td>\n",
       "      <td>035184d7-2f13-32d2-8479-77532cdf6152</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249994</th>\n",
       "      <td>还 不错 不过 商业化 比较 严重 啦</td>\n",
       "      <td>275498bc-12b3-3086-ab78-b7d0ea0da2e9</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249995</th>\n",
       "      <td>据说 这个 是 后来 建 的 没有 什么 历史 意义 登 上 4 楼 就 累 的 不行 在 ...</td>\n",
       "      <td>b4f946fe-0deb-3f7a-a8ae-ff1446818ec0</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249996</th>\n",
       "      <td>颐和园 也 是 我 喜欢 的 北京 经典 景点 之一 它 长长的 回廊 万寿山 七孔桥 和 ...</td>\n",
       "      <td>f030f2ed-1a39-32ff-a2dd-14fb757b2cb2</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249997</th>\n",
       "      <td>比较 小众 的 景点 但是 真心 很 美</td>\n",
       "      <td>647597a2-ec49-3f27-8924-363ddef52ca0</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249998</th>\n",
       "      <td>雨天 走走 景色 宜人 可惜 体力 有限 走 了 一个 小时 不 到 就 回去 了 没有 全...</td>\n",
       "      <td>1cbc2b1b-c7a6-34d6-93ae-a7da9cd93d37</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>249999</th>\n",
       "      <td>16060708 两日 路线 07 下午 天一巷 骆驼峰 辣椒峰 08 下午 北大 门骑 行...</td>\n",
       "      <td>b092aa49-4688-3c41-8aec-43c03186567f</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>250000 rows × 3 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                  Discuss  \\\n",
       "0       好 大 的 一个 游乐 公园 已经 去 了 2 次 但 感觉 还 没有 玩 够 似的 会 有...   \n",
       "1         新 中国 成立 也 是 在 这 举行 对 我们 中国 人 来说 有些 重要 及 深刻 的 意义   \n",
       "2       庐山 瀑布 非常 有名 也 有 非常 多 个 瀑布 只是 最 好看 的 非三叠泉莫属 推荐 一 去   \n",
       "3       个人 觉得 颐和园 是 北京 最 值 的 一起 的 地方 不过 相比 下 门票 也 是 最 ...   \n",
       "4                                               迪斯尼 一 日 游   \n",
       "5                                                      方便   \n",
       "6       看 水 看 山 都 可以 感受 古人 的 智慧 结晶 秋景 美丽 如 画 红 黄 绿 相间 ...   \n",
       "7                                                       赞   \n",
       "8                                                   唯一 糟点   \n",
       "9                                                周 未 周边 游   \n",
       "10      景点 服务 不错 就是 排队 太 长 了 好玩 的 项目 都 是 人 晚上 的 烟火 一定 ...   \n",
       "11                                              绍兴 护城河 夜游   \n",
       "12                             感觉 还 不错 作为 一 日 游 不错 的 选择 ～   \n",
       "13                                          有趣 hai   xing   \n",
       "14                    荡气回肠 10 年 去 的 居然 没有 留下来 照片 必然 要 再 去   \n",
       "15      景色 超级 棒 有 美丽 的 故事 可以 乘船 游览 也 可以 沿湖 浏览 累 了 可以 乘...   \n",
       "16      南锣鼓巷 是 北京 市中心 一 条 老 胡同 因为 其 地理 位置 靠近 什刹海 成为 北京...   \n",
       "17            个人 感觉 就 是 个 卖 小商品 的 地方 还 不 便宜 但是 晚上 夜景 挺 好看   \n",
       "18                                                 性价比 超高   \n",
       "19            挺 普通 的 吧 就 在 楼下 拍 了 几 张 图片 反正 也 是 进 不 去 的 呵   \n",
       "20      太 大 了 在 里面 走 了 好 长 时间 也 就 看 了 不 到 五分之一 但 周围 交通...   \n",
       "21                                                    迪士尼   \n",
       "22                                                   亲子 游   \n",
       "23      来 苏州 总是 要 欣赏 一下 古典 园林 的 可惜 对 园林 不 太 感冒 逛逛 玩玩 还...   \n",
       "24          不 到 长城 非 好汉 对于 爬 过 华山 的 我 来说 长城 太 简单 了 值得 一 去   \n",
       "25                                            很 值得 去 的 地方   \n",
       "26                                            第一 次 必 到 景点   \n",
       "27                                              好歹 也 是 长城   \n",
       "28      早上 一大早 就 起床 去 看 升 国旗 很 庄严 很 整齐 就 是 像 一个 节目 让 人...   \n",
       "29                        登 顶 是 俯瞰 故宫 的 绝佳 之 处 崇祯帝 在 此 自缢   \n",
       "...                                                   ...   \n",
       "249970  景色 很 美 原谅 我 的 语言 苍白 池水 很 清 可能 是 折射 也 可能 是 有 藻类...   \n",
       "249971                                 人 好 多 人 好 多 人 好多 呀   \n",
       "249972  1 西塘 管 老太 臭豆腐 这个 是 西塘 最 著名 的 小吃 了 山寨 冒牌 遍布 西塘 ...   \n",
       "249973  798 艺术 中心 来 朝圣 了 到处 都 是 拍照 的 人 到处 都 是 奇装异服 到处 ...   \n",
       "249974                  心诚则灵 很多 拜佛 的 地方 都 是 有 信仰 的 人才 去 的   \n",
       "249975  十一月 初 来 的 风 很 大 但是 不 太 冷 坐滑 车 来回 也 不错 长城 非常 壮观...   \n",
       "249976                             总体 就是 一般 般 吧 不 会 特别 推荐   \n",
       "249977                                  大大 的 雪场 绚丽多彩 的 冰灯   \n",
       "249978                            这 是 个 代表性 的 建筑 代表性 的 地点   \n",
       "249979       坐 地铁 直奔 王府井 因为 急 找 住 的 地方 把 背包 放下 就 没 溜达 王府井   \n",
       "249980                      西双版纳 热带 植物园 挺 大 的 这里 很多 热带 植物   \n",
       "249981  从 上海 到 西塘 坐 车 很 方便 票价 也 不 贵 冬天 的 西塘 虽然 冷 但是 放 ...   \n",
       "249982  观音 菩萨 的 道场 从来 都 没有 遭遇 过 台风 的 平静 之 地 岛 还是 比较 大 ...   \n",
       "249983  西湖 美 在 有 秀丽 的 自然 风光 动人 的 传说 湖光山色 塔影 相映成趣 连如织 的...   \n",
       "249984                                          一点 都 不 好玩   \n",
       "249985                                             值得 一 看   \n",
       "249986   点评 有 奖 第14 季 青城 山 风景 很 美 寺庙 建设 很 特别 但 景区 好多 没 开放   \n",
       "249987                            人山人海 太 多 人 了 特别 是 跟 团 的   \n",
       "249988                                预订 票 在 机器 上 取 快捷 方便   \n",
       "249989              烟花 三月 下扬州 到 了 瘦西湖 才 算是 到 了 扬州 算是 必 选项   \n",
       "249990  秋日 的 下午 来到 这里 游人 虽然 不少 但是 也 不 算 特别 多 慢慢 走 慢慢 逛...   \n",
       "249991  新 晋 5a 级 国家 旅游 风景区 渤海 广场 乘8 路 公交车 终点 即 是 票价 2 ...   \n",
       "249992                  很 不错 自己 爬 上去 的 走走 停停 认识 了 新 的 小伙伴   \n",
       "249993                               有 何 功德 烧香 的 人 是 人山人海   \n",
       "249994                                还 不错 不过 商业化 比较 严重 啦   \n",
       "249995  据说 这个 是 后来 建 的 没有 什么 历史 意义 登 上 4 楼 就 累 的 不行 在 ...   \n",
       "249996  颐和园 也 是 我 喜欢 的 北京 经典 景点 之一 它 长长的 回廊 万寿山 七孔桥 和 ...   \n",
       "249997                               比较 小众 的 景点 但是 真心 很 美   \n",
       "249998  雨天 走走 景色 宜人 可惜 体力 有限 走 了 一个 小时 不 到 就 回去 了 没有 全...   \n",
       "249999  16060708 两日 路线 07 下午 天一巷 骆驼峰 辣椒峰 08 下午 北大 门骑 行...   \n",
       "\n",
       "                                          Id  Score  \n",
       "0       201e8bf2-77a2-3a98-9fcf-4ce03914e712    5.0  \n",
       "1       f4d51947-eac4-3005-9d3c-2f32d6068a2d    4.0  \n",
       "2       74aa7ae4-03a4-394c-bee0-5702d3a3082a    4.0  \n",
       "3       099661c2-4360-3c49-a2fe-8c783764f7db    5.0  \n",
       "4       97ca672d-e558-3542-ba7b-ee719bba1bab    5.0  \n",
       "5       3b7f3f2e-886f-3a68-a810-2c37cfd728d3    4.0  \n",
       "6       88914409-bd13-3d47-b5a2-691177dde8fd    4.0  \n",
       "7       bf13ec92-6079-3451-ade3-88020cb0dcb5    5.0  \n",
       "8       489c3d94-9c44-3cf2-949c-1b507c374c69    5.0  \n",
       "9       285bba78-16a3-3c1d-b648-baa483883ee3    5.0  \n",
       "10      e7801d96-73d0-35c4-9e00-cc15caaa384a    5.0  \n",
       "11      973afeca-7530-3f56-b7f5-bef36d889025    4.0  \n",
       "12      cd91dc2f-2331-3c73-bc8d-da027337270d    5.0  \n",
       "13      7ce97eca-63a8-30a1-9687-6796f34606f1    5.0  \n",
       "14      25e21097-bd41-3589-b12c-62bc7b04eb6d    5.0  \n",
       "15      98e78de7-d5d3-3b30-90d4-a63a6107d532    5.0  \n",
       "16      26334fc8-a4f1-3dc3-adb6-76b99d75cdf9    5.0  \n",
       "17      7f4d6d59-f732-3125-8e7d-8bd64c891b94    3.0  \n",
       "18      61522e3c-5d2a-3088-b60d-159dbc2976ce    5.0  \n",
       "19      37e57244-8d7e-3a1d-8f0f-8b811afb4a6a    3.0  \n",
       "20      81502f08-b884-38b8-8169-7de7a0680a82    4.0  \n",
       "21      533a667c-d6ba-313d-bc29-588b992789e0    2.0  \n",
       "22      041e4056-62f2-3f25-8e3e-8f57f66cb3d8    5.0  \n",
       "23      988f2319-3292-305a-aaaf-ba18bc397e5a    4.0  \n",
       "24      c3d7dd21-79ef-3ff2-b90d-14631e9a30b4    5.0  \n",
       "25      4b12c7b9-059f-3016-a954-3849b0456ce4    5.0  \n",
       "26      5ba1fa45-4c97-3afe-9dd6-3efea9c73a94    5.0  \n",
       "27      f6d82a8c-ef72-3a0a-95ca-95aa2fbb7f7d    4.0  \n",
       "28      9363fc36-92a7-371f-8d5f-5dd71b565455    5.0  \n",
       "29      a4dc34f1-6a97-3b86-829c-466cdaa86bf2    4.0  \n",
       "...                                      ...    ...  \n",
       "249970  f0de95d2-ef2b-3361-a6df-3f4392d74e93    NaN  \n",
       "249971  d0a33ded-fed9-3d92-9c51-c6512d71a93d    NaN  \n",
       "249972  b00cd736-093a-3d1e-b750-41283e37e09b    NaN  \n",
       "249973  8be4f87a-c76b-3e65-8ecc-a25f209824da    NaN  \n",
       "249974  9079f642-7458-3c6d-9098-c4877cc81347    NaN  \n",
       "249975  f0d47b46-9391-3d0c-b068-8753e4edd583    NaN  \n",
       "249976  8e9afa16-33ae-3f51-8156-1e9e5337605c    NaN  \n",
       "249977  3a19d80a-1cdf-3616-9707-6f8a72b4513b    NaN  \n",
       "249978  73081902-03a0-3f36-b562-900d6fd81f6c    NaN  \n",
       "249979  7fed708a-e036-36cb-98a4-f8de9fbbf3db    NaN  \n",
       "249980  cdb9eed1-54fb-3454-b98d-645c3bdfca78    NaN  \n",
       "249981  0986165f-e9a5-394c-91d2-57149a4cad4b    NaN  \n",
       "249982  99aeecae-9a3b-337c-ad7b-ab82bbb499b4    NaN  \n",
       "249983  c0334558-d138-31cb-b714-0b6a320fa903    NaN  \n",
       "249984  03f30d5a-9478-3701-b8e0-dec924ffe9a5    NaN  \n",
       "249985  a8c15edb-40a9-3014-a021-83d0d747f2d9    NaN  \n",
       "249986  856aefdd-dc4c-36b2-a102-d9333b44186c    NaN  \n",
       "249987  179cf47c-4eb3-3c94-b097-52ab1844d67b    NaN  \n",
       "249988  c5e81b73-0412-3120-a94e-c14f3dc942ab    NaN  \n",
       "249989  803661ce-e446-32c6-a3f2-707e7d53891d    NaN  \n",
       "249990  0c972f48-a836-3bdc-8dd5-fc4ac7d3385e    NaN  \n",
       "249991  927ed129-56ea-33fa-bcd3-f49527693fbb    NaN  \n",
       "249992  cda5d912-3bf9-382a-9b3a-5c08bc665360    NaN  \n",
       "249993  035184d7-2f13-32d2-8479-77532cdf6152    NaN  \n",
       "249994  275498bc-12b3-3086-ab78-b7d0ea0da2e9    NaN  \n",
       "249995  b4f946fe-0deb-3f7a-a8ae-ff1446818ec0    NaN  \n",
       "249996  f030f2ed-1a39-32ff-a2dd-14fb757b2cb2    NaN  \n",
       "249997  647597a2-ec49-3f27-8924-363ddef52ca0    NaN  \n",
       "249998  1cbc2b1b-c7a6-34d6-93ae-a7da9cd93d37    NaN  \n",
       "249999  b092aa49-4688-3c41-8aec-43c03186567f    NaN  \n",
       "\n",
       "[250000 rows x 3 columns]"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df_train_processed"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 保存预处理后的数据集\n",
    "df_train_processed.to_csv(CACHE_PATH + 'train_processed_all.csv',index=False)\n",
    "df_predict_processed.to_csv(CACHE_PATH+ 'predict_processed_all.csv',index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
